高分期刊都在用：有向无环图，零基础上手指南来了！_统计与绘图_实用技巧

对于繁忙的临床医生来说，做科研的时间是非常宝贵的，因此如何高效利用起来实现一篇文章的产出显得极为重要。

但，现实情况却常常是随机对照试验难以实施，孟德尔随机化又太难，有没有一种学术圈热门且容易上手的统计学方法能够助力临床科研呢？那接下来即将登场的——有向无环图，你不可错过。

什么是有向无环图？

有向无环图「directed acyclic graphs，DAGs」是一种展示不同流行病学研究设计、以及变量间因果关系的可视化图形语言，由节点「表示变量」以及连接各个节点的有向边（表示变量间的因果关系）构成 1。

DAGs 揭示了暴露因素「E」与结局变量「O」之间假定的因果关系，一个完整的因果 DAG 包括从暴露到结局路径上的每一对可能的变量，以及任何可能对上述变量产生因果影响的变量，变量间采用单箭头连接，箭头方向反映时序关系，因此，DAGs 是有方向的、非闭环的。

图片来源：文献截图

目前，DAGs 在理解和指导研究设计、混杂因素的识别与控制、缺失数据的处理以及因果关系推断等方面得到了广泛应用，成为临床流行病学研究领域的热门方法。

DAGs 到底有多火热？高分期刊都在用

当前医学领域与有向无环图的相关研究正呈现一个上升的趋势。2021 年发表的一篇综述检索了 1999 年至 2017 年间发表的使用了 DAGs 的文章，结果显示 DAGs 的使用逐年上升，最常用的是公共、环境、健康领域，主要是采用 DAGs 来帮助混杂因素的选择。

图片来源：文献截图

2019 年，Ramirez 等人发表在《JAMA Pediatrics》「IF：26.1」上的一篇纵向队列的文章中研究了儿童特应性皮炎与睡眠质量之间的关系。作者使用 DAG 图来解释了人口统计学和社会经济因素、吸烟暴露、共病哮喘和过敏性鼻炎之间的潜在关系。

图片来源：文献截图

2020 年，一项来自北欧重大出生缺陷个体的癌症风险的大型病例对照研究「BMJ，IF：105.7」通过绘制 DAG 图进行了混杂因素和中间变量的筛选，为了估计出生缺陷对癌症风险的准确影响，研究人员并没有调整中间变量「出生体重和早产」。

图片来源：文献截图

今年 6 月，哈佛大学公共卫生学院在《The Lancet Planetary Health》「IF：28.75」发表的一项观察性研究，旨在探索血液中叶酸生物标志物浓度与全氟烷基和多氟烷基物质「PFAS」浓度之间的关系，也选用了 DAG 图来进行混杂因素的筛选。

图片来源：文献截图

临床研究中 DAGs 用处多多，主要包括以下几点

1. 提前识别研究问题

在研究实施之前，可以通过提前构建 DAGs 图识别干扰变量，评估其是否在后续的研究中可测量，并通过适当的偏倚设计获得相应的偏倚参数供后续分析，同时也可以避免不必要的变量测量。

2. 用于因果推断中混杂因素的识别和控制

观察性研究在因果推断中，常由于未经识别和校正的混杂因素存在而导致暴露和结局之间的真实联系被歪曲，从而出现错误的估计。而构建 DAGs 可以将研究中的因果关系可视化，更加直观识别可能存在的混杂变量，得到最接近真实结果的效应估计值。

3. 多因素回归分析变量筛选

流行病学研究中常采用逻辑回归分析变量间的关系，绘制 DAGs 可以更加真实地模拟现实情况，把回归方程建成一个庞大的因果关系体系，从而更深层次地进行变量筛选。

4. 处理缺失数据指导思想

DAGs 提供了一种图形工具来描述分析变量和缺失指标之间的假定关系，包含缺失数据的 DAG 图被延伸为潜在缺失的有向无环图「m-DAG」。

在该图形中，基于前期文献和专家共识构建了可能的混杂因素集，并将完整混杂因素集和不完整混杂因素集都分解为单个节点，这样就不会影响后续分析和参数的可恢复性。

图片来源：文献截图

有向无环图的绘制工具——DAGitty

在这里笔者给大家介绍一个简单方便绘制 DAGs 的小工具——DAGitty，网址是：http://www.dagitty.net，可以在线使用也可以下载。

DAGitty 的页面包括三个部分，从左至右，依次是变量设置区，绘图区以及功能区，基本功能包括识别用于估计因果效应的最小充分调整集，通过识别偏倚路径诊断不充分或无效的调整，识别工具变量，以及推导可测试的含义。

图片来源：页面截图

接下来笔者就简单演示一下如何绘制 DAG 图。

首先明确要研究的问题，例如：本次研究目的是探讨血清维生素 D 水平和肌肉衰减症之间的关系。

第一步：根据前期的文献和先验知识确定可能影响血清维生素 D 水平和肌肉衰减症的潜在影响因素：年龄，光照，膳食补充剂，骨质疏松症，肥胖等。

第二步：打开网址，进入绘图页面，点击「Model」选择「New model」开始创建，然后点击页面的空白区域添加变量，首先创建暴露变量「血清维生素 D 水平」和结局变量「肌肉衰减症」，然后点击「血清维生素 D 水平」在左侧的「Variable」中选择「exposure」；

同理，点击「肌肉衰减症」选择「outcome」，并根据因果关系添加箭头，得到下图。

图片来源：页面截图

第三步：接下来生成其他的变量，并且确立各变量与暴露和结局之间的关系。我们可以从初步绘制好的图形中看到不同的颜色代表不同的变量和路径，右上角的「Adjustment」会显示本次研究需要调整的混杂因素有那些。

如果你想导出图片，分享给其他人或者是插入到 SCI 论文中，点击「Model」就可以选择输出「PDF」「PNG」或者「JEPG」了；此外，右下角的「Model Code」还提供了可以绘图的代码，也可以直接复制到 R 中使用。

如果还有什么问题，点击「Help」，选择「Manual」就可以查看绘图的详细说明，非常方便。

结语：医学研究的目的是获得无偏估计，因此，有向无环图在临床研究中的应用范围是非常广的，由其衍生而来的中介分析，孟德尔随机化近年来也是十分火热。

但在运用之前我们也要看到它的局限性，例如不能指出随机误差，变量越多对结果解释越复杂等，这样在后续的研究中才能运用得宜。

科研星球